Einführung in statistisches Denken

Workshop at BFSU 1

UC Santa Barbara

JLU Giessen

30 Mar 2026 12-34-56

Einleitung

Einige offensichtliche Ziele empirischer wissenschaftlicher Arbeit

  • Beschreibung, welche die Frage beantwortet “was passiert(e)?”
  • Erklärung, welche die Frage beantwortet “warum passiert(e) X?”
  • Vorhersage, welche die Frage beantwortet “was wird mit X passieren, wenn …?”
  • Kontrolle, welche die Frage beantwortet “wie kann X beinflusst werden?”

Warum dafür Statistik?

  • Um Beschreibungen, Erklärungen und Vorhersagen
    • objektiv
    • genau
    • vergleichbar
    • kompakt zu machen
  • um Variabilität zu adressieren und um zu generalisieren: unterschiedliche Stichproben selbst von der gleichen Population werden unterschiedliche Resultate ergeben
    • wir müssen daher Variabilität quantifizieren
    • wir müssen daher zufällige von systematischer/bedeutsamer Variabilität unterscheiden
  • um die Robustheit der Generalisierungen zu quantifizieren

Drei zentrale Begriffe

  • Objektivität: Unabhängigkeit von persönlichen Meinungen
  • Reliabilität: Genauigkeit (im Sinne von ‘Re-test Reliabilität’)
  • validität: man misst/quantifiziert, was man messen/quantifizieren möchte (das wichtigste Kriterium)

Probleme, die man mit quantitativer Analyse vermeiden kann

Zwei englische Verben verb1 und verb2 (1)

  • Eine Studie diskutierte die Komplementationspräferenzen von Verb1 und Verb2 zu zwei grammatischen Konstruktionen:
addmargins(example_1 <-matrix(c(295, 131, 104, 35), ncol=2,
   dimnames=list(VERB=1:2, PATTERN=1:2)))
     PATTERN
VERB    1   2 Sum
  1   295 104 399
  2   131  35 166
  Sum 426 139 565
    PATTERN
VERB    1    2
   1 0.74 0.26
   2 0.79 0.21
  • Schlussfolgerung: “[c]omparing the postverbal elements in the two verbs, we can see that the proportion of [pattern1] for [verb2] is higher than for [verb1]” …
  • ja, 79% > 74%, aber ein bestimmter statistischer Test hätte gezeigt, dass diese Verteilung nicht signifikant (unterschiedlich von einer Zufallsverteilung) ist:

    Pearson's Chi-squared test

data:  example_1
X-squared = 1.5679, df = 1, p-value = 0.2105
  • mit diesem Test hätte der Autor eine inkorrekte Übergeneralisierung vermeiden können.

Zwei englische Verben verb1 und verb2 (2)

  • Eine andere Studie von zwei englischen Verben Verb1 and Verb2 diskutierte ihre Komplementationspräferenzen bzgl. 5 XPs:
addmargins(example_2 <- matrix(c(302,73, 8,0, 145,5, 19,3, 8,0), ncol=5,
   dimnames=list(VERB=1:2, PATTERN=c("NP", "PP", "VP", "AdjP", "AdvP"))))
     PATTERN
VERB   NP PP  VP AdjP AdvP Sum
  1   302  8 145   19    8 482
  2    73  0   5    3    0  81
  Sum 375  8 150   22    8 563
  • “we find that (a) [verb1] is more common before noun-phrases than before other constituents” …
  • ja, 302 ist die höchste Zahl in der ersten Zeile / Tabelle, aber der Fokus der Studies war auf Verb1 vs. Verb2, und, verglichen mit Verb2, Verb1 tatsächlich dispräferiert NPs:
    PATTERN
VERB    NP    PP    VP  AdjP  AdvP
   1 -1.06  0.44  1.46  0.04  0.44
   2  2.59 -1.07 -3.57 -0.09 -1.07
  • mit diesem Ansatz/Test hätte der Autor vermeiden können, diesen Effekt zu übersehen.

Überraschungen vermeiden 1

Figure 1

Überraschungen vermeiden 2

Figure 2

Caveats: Man muss beachten …

  • Statistiken sind nicht für Inhalte verantwortlich – das ist allein der Forscher
  • Statistiken sind nur nützlich in dem Ausmass, dass der Forscher erfolgreich/vernünftig
    • seine Variablen operationalisiert hat
    • seine Daten elizitiert/gesammelt/annotiert hat
    • die richtige statistische Methode(n) gewählt hat
    • diese richtig angewendet hat

Die Phasen empirischer quantitativer Studien

Die Phasen einer empirischen Studie

  • Exploration (Aufklärung), die zu Variablen führt
  • Hypothesen (in Textform und statistischer Form)
  • Datenerhebung (Operationalisierung der Variablen)
  • Überprüfung der Hypothesen anhand der Daten mittels
    • Effektstärken
    • Grafiken
    • Signifikanztests (p-Werte)

Phase 1 und 2: Das Konzept der Variablen

  • Variablen
    • sind messbare Eigenschaften oder Merkmale eines Objekts
    • variieren über verschiedene Items hinweg, wobei “Items” die einzelnen Messungen der Eigenschaften des untersuchten Objekts sind;
    • Items können Personen, Ereignisse (Wörter, Äußerungen, …) sein.
  • Nicht-linguistische Beispiele für Variablen:
    • Jahreseinkommen, Anzahl der Kinder, IQ, …
    • gewählte Partei bei der letzten Bundestagswahl, Haarfarbe, Familienstand, …
  • Linguistische Beispiele für Variablen:
    • Reaktionszeit auf ein Wort, Wortlänge, …
    • Belebtheit (Animacy) einer Subjekt-Nominalphrase: menschlich (Peter) vs. belebt (die Katze) vs. unbelebtes konkretes Objekt (der Tisch) vs. abstrakt (die Zeit), …
  • Hinweis: Wir müssen uns für eine Auflösung (Skalierung) entscheiden. Beim Jahreseinkommen:
    • Zahlen: Der exakte Betrag? Der auf volle US$ gerundete Betrag?
    • Rangklassen: ‘negativ’, 0-30.000, 30.001-60.000, 60.001-100.000, 100.001-?
    • Kategorien: keines vs. beliebiges? Oder überdurchschnittlich vs. unterdurchschnittlich?

Phase 1 und 2: Variablentypen, Teil 1

  • Variablen lassen sich nach ihrem Informationsgehalt unterscheiden:
    • kategorial (nominal): ‘unterschiedliche Werte → unterschiedliche Eigenschaften’
    • ordinal: kategorial + ‘unterschiedliche Werte → unterschiedliche Ränge’
    • numerisch (metrisch): kategorial + ordinal + ‘unterschiedliche Werte → messbare Differenzen/Verhältnisse’
  • Hier sind fiktive Ergebnisse eines olympischen 100m-Laufs – was ist das Informationsniveau jeder Variable in einer Spalte?
ZEIT PLATZ NAME NUMMER MEDAILLE
9.86 1 S. Davis 453473 1
9.91 2 J. White 563456 1
10.01 3 S. Hendry 756675 1
20.02 4 C. Lewis 585821 0
  • ZEIT: num, PLATZ: ord, NAME/NUMMER: kat, MEDAILLE: kommt darauf an

Phase 1 und 2: Variablentypen, Teil 2

  • Variablen lassen sich nach ihrer Rolle in einer Untersuchung unterscheiden:
    • Response (abhängig): die Variable, deren Werte/Verhalten/Variation wir erklären wollen
    • Prädiktor (unabhängig): oft die angenommene Ursache für das Verhalten der Response-Variable

  • Störvariablen (Confounds; kontrolliert, berücksichtigt oder herausgerechnet)
  • Moderatoren (berücksichtigt durch Interaktionen mit zusätzlichen Variablen)
  • Collider (anders berücksichtigt)

Phase 1 und 2: Variablentypen, Übung

  • In den folgenden nicht-linguistischen Beispielen für Texthypothesen: Was ist die Response, was der Prädiktor und welche Informationswerte haben die Variablen?
    • Menschen mit Universitätsabschluss sind intelligenter als Menschen ohne Abschluss
    • Response: IQ (num) ~ Prädiktor: HATUNIABSCHLUSS (kat): nein vs. ja
    • Männer können besser einparken als Frauen
    • Response: PARKFÄHIGKEIT (?) ~ Prädiktor: SEX/GESCHLECHT (kat): weiblich vs. männlich

Phase 1 und 2: Variablentypen, Übung

  • In den folgenden linguistischen Beispielen für Texthypothesen: Was ist die Response, was der Prädiktor und welche Informationswerte haben die Variablen?
    • In Aufsätzen machen Nicht-Muttersprachler mehr Fehler als Muttersprachler
    • Response: FEHLERZAHL (num) ~ Prädiktor: SPRECHERTYP (kat): Lerner vs. MuttSpr
    • Subjekte sind kürzer als Objekte
    • Response: LÄNGE (num) ~ Prädiktor: GRAMREL (kat): Objekt vs. Subjekt

Phase 2: Was sind Hypothesen?

  • Was sind Hypothesen? Eine Definition:
    • universelle Aussagen (über ein Einzelereignis hinausgehend)
    • implizite Struktur eines Konditionalsatzes:
      • Wenn [Prädiktor] …, dann [Response] …
      • Je mehr/weniger [Prädiktor] …, desto mehr/weniger [Response] …
    • potenziell falsifizierbar
    • empirisch testbar
  • die vielleicht nützlichste Definition: Eine Aussage, die eine Verteilung von einer oder mehreren Response-Variablen postuliert
  • Hypothesen treten in verschiedenen Arten auf

Phase 2: Arten von Hypothesen

  • Texthypothesen vs. statistische Hypothesen (→ Operationalisierung)
  • Alternativhypothese H1: eine Aussage, die Folgendes postuliert:
    • eine bestimmte Verteilung einer (Response-)Variable (Anpassungsgüte/Goodness-of-fit)
    • eine Beziehung zwischen 1+ Prädiktoren & 1+ Response-Variablen (Unabhängigkeit/Unterschied(e))
      • postuliert einen Unterschied, aber nicht dessen Richtung: ungerichtet/zweiseitig
      • z.B.: Subjekte und Objekte unterscheiden sich in ihrer Länge
      • postuliert einen Unterschied und dessen Richtung: gerichtet/einseitig
      • z.B.: Subjekte sind kürzer als Objekte
  • Nullhypothese H0: das logische Gegenstück zur H1: eine Alternativhypothese mit einem nicht darin

Phase 2: Operationalisierung 1

  • Operationalisierung: der Schritt von Texthypothesen zu statistischen Hypothesen
    • Schritt 1: Formulierung der Variablen in den Texthypothesen so, dass sie Zahlen enthalten
    • Schritt 2: Wahl eines statistischen Maßes, das auf diese Zahlen angewendet wird
  • Nicht-linguistische Beispiele:
    • Einparkkompetenz
    • körperliche Fitness
    • finanzieller Wohlstand
  • Linguistische Beispiele:
    • Kenntnis einer Fremdsprache
    • die Länge von Subjekten und Objekten

Phase 2: Operationalisierung 2

  • Operationalisierung: Der Schritt von Texthypothesen zu statistischen Hypothesen
    • Schritt 1: Formulierung der Variablen in den Texthypothesen so, dass sie Zahlen enthalten
    • Schritt 2: Wahl eines statistischen Maßes, das auf diese Zahlen angewendet wird
  • Häufigste statistische Maße:
    • Häufigkeiten/Frequenzen
    • Mittelwerte/Durchschnitte
    • Korrelationen
    • Verteilungen (Distributions) und Streuungen (Dispersions)
  • Welche Statistik nutzen wir für die Länge von Subjekten & Objekten?
    • Gesamtsumme der Längen (Häufigkeiten)?
    • Mittelwerte der Längen (Durchschnitte)?

Phase 2: Ein Beispiel

  • Stellen Sie sich folgende alternative Texthypothese vor: “Über alle Teilsätze hinweg sind Subjekte im Englischen kürzer als Objekte.”
    • Wie lautet die entsprechende Nullhypothese?
    • Über alle Teilsätze hinweg sind Subjekte im Englischen nicht kürzer als Objekte.”
  • Welche Variablen sind beteiligt?
    • Response: LÄNGE (numerisch) ~ Prädiktor: GRAMREL (binär/kategorial)
  • Wie operationalisieren wir sie?
    • LÄNGE: Nutzen wir die Länge in Wörtern
    • GRAMREL:
      • Objekt: Die NP, die das ‘Ziel’ der Handlung eines transitiven Verbs ist und bei Passivierung zum Subjekt werden könnte
      • Subjekt: Die NP, die die verbale Morphologie/Kongruenz bestimmt und prototypisch den Agens der Handlung bezeichnet
  • Welche Statistik nutzen wir?
    • Durchschnittliche Länge aller Objekte vs. durchschnittliche Länge aller Subjekte (nicht paarweise!)

Phase 3: Regeln zur Datenspeicherung

  • Angenommen, Sie untersuchen dies mit Korpora und erheben folgende Korpusdaten:
    • Die jungen Männer verzehren die niedliche kleine Katze
    • Sie war am schlafen (Hinweis: kein Objekt!)
    • Der schnelle braune Fuchs biss den faulen Hund
  • Regel: Speichern Sie die Daten im sogenannten Fall/Variablen-Format (case-by-variable):
    • Jeder Datenpunkt (d.h. Messung der Response-Variable) erhält eine eigene Zeile
    • Jede Variable oder jedes andere Merkmal eines Datenpunkts erhält eine eigene Spalte
    • Die allererste Zeile enthält die Namen aller Variablen (Header)
    • Fehlende Daten werden als NA markiert – nicht mit leeren Zellen!
    • Verwenden Sie nicht Zahlen für die Ausprägungen von kategoriale Variablen

Phase 3: Datenspeicherung (nicht ideal)

Table 1: Ungünstiges Format
SATZ SUBJ OBJ
Die jungen Männer verzehren die niedliche kleine Katze 3 4
Sie war am schlafen 1
Der schnelle braune Fuchs biss den faulen Hund 4 3
  • Denken Sie daran: Jeder Datenpunkt sollte eine eigene Zeile haben
  • Denken Sie daran: Jede Variable sollte eine eigene Spalte haben
  • Wie viele Datenpunkte/Längen haben wir? 6 (und eine/r sollte NA sein), aber …
    • … jede Zeile hat 2 Datenpunkte von LÄNGE, nicht einen
  • Wie viele Variablen? 2: LÄNGE und GRAMREL, aber …
    • … die Spalten 2 und 3 repräsentieren die Ausprägungen (levels) einer Variable (GRAMREL), nicht die Variable selbst

Phase 3: Datenspeicherung (besser)

  • Ein Format wie dieses wäre besser:
Table 2: Besseres Standardformat
FALL ITEM/SATZ LÄNGE GRAMREL
1 Die jungen Männer verzehren die niedliche kleine Katze 3 subj
2 Die jungen Männer verzehren die niedliche kleine Katze 4 obj
3 Sie war am schlafen 1 subj
4 Sie war am schlafen NA obj
5 Der schnelle braune Fuchs biss den faulen Hund 4 subj
6 Der schnelle braune Fuchs biss den faulen Hund 3 obj
  • Wie viele Variablen? 2, das sind die beiden Hauptspalten rechts
  • Wie viele Datenpunkte/Längen? 6, so viele Zeilen haben wir

Phase 3: Datenspeicherung (Exkurs)

  • Wenn man diese Studie nicht über alle Teilsätze durchführte (d.h. inklusive Sätzen ohne Objekt), …
  • … sondern nur Sätze mit genau einem Subjekt und einem Objekt nutzte (d.h. jedes Subjekt/Objekt ist genau einem Objekt/Subjekt paarweise zugeordnet), …
  • dann könnte man theoretisch auch dieses Format nutzen:
Table 3: Mögliche Darstellung für perfekt paarweise Daten
SENTENCE SUBJ OBJ DIFF
Die jungen Männer verzehren die niedliche kleine Katze 3 4 -1
Er schloss die Tür 1 2 -1
Der schnelle braune Fuchs biss den faulen Hund 4 3 1
  • Aber selbst in dieser Situation sollte die zuerst vorgestellte Alternative Ihr Standard sein.

Phase 3: Datenspeicherung: direkter Vergleich

Die Logik des Hypothesentests

Die wissenschaftliche Methode

  • Die Logik statistischen Testens ist die der Hypothesenfalsifizierung:
    • Man beweist nicht, dass die eigene H1 korrekt ist,
    • man ‘beweist’, dass die entsprechende H0 falsch ist, was bedeutet, dass die eigene H1 richtig ist
  • Schritte:
    • Vor der Datengewinnung definiert man ein Signifikanzniveau pkritisch, welches quantifiziert, wie schnell man H0 ablehnt / H1 akzeptiert
    • Man sammelt die Daten, wertet sie aus und berechnet den in den Daten beobachteten Effekt e (mittels der Statistik aus der statistischen Hypothese)
    • Man berechnet die sog. Fehlerwahrscheinlichkeit p, wie wahrscheinlich es ist, e zu finden, wenn H0 korrekt ist
    • Entscheidung:
      • Wenn p < pkritisch, lehnt man H0 ab und akzeptiert H1
      • Wenn ppkritisch, muss man bei H0 bleiben und kann H1 nicht akzeptieren

Münzwurf 100 Mal, Szenario 1

  • Wir spielen ein Spiel und werfen eine Münze 100 Mal: Kopf: 1$ für mich; Zahl: 1$ für Sie
  • Ihre Hypothesen:
    • H0: Beide Spieler sind ehrlich: pKopf = pZahl = 0,5
    • H1: STG ist nicht ehrlich: pKopf > 0,5 und pZahl < 0,5
  • Das Signifikanzniveau ist (wie fast immer) auf 0,05 festgelegt
  • Nach dem Spiel, wie oft müssen Sie nun verloren haben, bevor Sie beginnen, mich des Betrugs zu bezichtigen (d.h. H1 zu akzeptieren)?
    • Wenn Sie 51 Mal verlieren?
    • Wenn Sie 55 Mal verlieren?
    • Wenn Sie 59 Mal verlieren?
  • Was tun Sie? Sie betrachten einen Effekt e (das Ergebnis STG: 3 vs. Sie: 0, d.h. Ihre Verluste) und bestimmen, wann e zu unwahrscheinlich wird, um noch an H0 zu glauben

Münzwurf nur 3 Mal

  • Sie legen das Signifikanzniveau fest: pkritisch = 0,05
  • Wir spielen, Sie verlieren 3 von 3 Mal: Der Effekt e ist 3:0.
Wurf 1 Wurf 2 Wurf 3 Kopf Zahl pErgebnis
Kopf Kopf Kopf 3 0 0,125
Kopf Kopf Zahl 2 1 0,125
Kopf Zahl Kopf 2 1 0,125
Kopf Zahl Zahl 1 2 0,125
Zahl Kopf Kopf 2 1 0,125
Zahl Kopf Zahl 1 2 0,125
Zahl Zahl Kopf 1 2 0,125
Zahl Zahl Zahl 0 3 0,125
  • Fehlerwahrscheinlichkeit p = 0,125 (von 3:0)
  • Entscheidung: p > pkritisch: Sie müssen bei H0 bleiben.

Häufigeres Münzwerfen

Münzwurf 100 Mal, Szenario 2

  • Wir spielen ein Spiel, werfen die Münze 100 Mal: Kopf: 1$ für mich; Zahl: 1$ für Sie
  • Die Hypothesen eines unabhängigen Beobachters:
    • H0: Beide Spieler sind ehrlich: pKopf = pZahl = 0,5
    • H1: Mindestens ein Spieler ist nicht ehrlich: pKopf > 0,5 oder pKopf < 0,5
  • Das Signifikanzniveau ist (wie fast immer) auf 0,05 festgelegt
  • Wie oft muss einer von uns verlieren, bevor der unabhängige Beobachter beginnt, den anderen des Betrugs zu bezichtigen (d.h. H1 zu akzeptieren)?
    • Wenn jemand 51 Mal verliert?
    • Wenn jemand 56 Mal verliert?
    • Wenn jemand 61 Mal verliert?
  • Was tut der unabhängige Beobachter? Er betrachtet einen Effekt e (die Ergebnisse Jemand: 3 vs. Jemand anderes: 0) und bestimmt, wann e zu unwahrscheinlich wird, um noch an H0 zu glauben.

Münzwurf nur 3 Mal

  • Ein unabhängiger Beobachter legt das Signifikanzniveau fest: pkritisch = 0,05
  • Wir spielen, einer von uns (Sie) verliert 3 von 3 Mal: Der Effekt e ist 3:0.
Wurf 1 Wurf 2 Wurf 3 Kopf Zahl pErgebnis
Kopf Kopf Kopf 3 0 0,125
Kopf Kopf Zahl 2 1 0,125
Kopf Zahl Kopf 2 1 0,125
Kopf Zahl Zahl 1 2 0,125
Zahl Kopf Kopf 2 1 0,125
Zahl Kopf Zahl 1 2 0,125
Zahl Zahl Kopf 1 2 0,125
Zahl Zahl Zahl 0 3 0,125
  • Fehlerwahrscheinlichkeit p = 0,125 (aus 3:0) + 0,125 (aus 0:3) = 0,25
  • Entscheidung: p > pkritisch: Der Beobachter muss bei H0 bleiben.

Häufigeres Münzwerfen

Lektionen, Teil 1

  • Lektion 1 betrifft Verteilungen und parametrisches Testen:
  • In diesem Fall von Binomialversuchen erhalten wir mit zunehmendem Stichprobenumfang
    • eine glockenförmige Normalverteilung …
    • selbst wenn die ‘Eingangswahrscheinlichkeit’ nicht normalverteilt ist
  • Wenn also die Stichproben groß genug sind und die Verteilung einfach beschreibbar aussieht, dann …
  • … können wir einen parametrischen/asymptotischen Test verwenden – aber nur dann!

Lektionen, Teil 2

  • Lektion 2 betrifft Alternativhypothesen; es gibt
    • gerichtete/einseitige Alternativhypothesen:
      • sie postulieren einen Effekt, einen Unterschied oder eine Korrelation,
      • und deren Richtung (oben: Sie).
    • ungerichtete/zweiseitige Alternativhypothesen:
      • sie postulieren einen Effekt, einen Unterschied oder eine Korrelation,
      • aber nicht deren Richtung (oben: der unabhängige Beobachter).
  • Vorwissen wird belohnt: erstere sind leichter zu akzeptieren.
  • Aber woher kommen diese p-Werte?

Phase 4: Auswertung und Interpretation

Wahl einer Methode/eines Tests, Teil 1

  • Welche Art von Studie wird durchgeführt?
    • Deskriptiv, explorativ, hypothesengenerierend
    • Hypothesenprüfend
  • Wie viele und welche Arten von Variablen sind beteiligt?
    • 1 Response (Anpassungstests/Goodness-of-fit)
    • 1 Response & 1 Prädiktor (monofaktorieller Test auf Unabhängigkeit oder Unterschiede)
    • 1 Response & 2+ Prädiktoren (multifaktorielle Analysen)
    • 2 Responses (multivariate Analysen)
  • Sind die Datenpunkte so verknüpft, dass man sie sinnvoll einander zuordnen kann?
    • nein: Tests für unabhängige Stichproben
    • ja: Tests für abhängige Stichproben
    • letztere sind gewöhnlich aussagekräftiger (powerful).

Wahl einer Methode/eines Tests, Teil 2

  • Was ist die Statistik der abhängigen Variable in der statistischen Hypothese?
    • Häufigkeiten/Frequenzen → oft Chi-Quadrat-Tests
    • Verteilungen → oft Kolmogorov-Smirnov-Test
    • Mittelwerte → oft t-Tests
    • Streuungen → oft F-Tests
    • Korrelationen → oft r oder ρ oder τ
  • Wie sieht die Verteilung der Daten aus?
    • normal: Führt oft zu parametrischen Tests.
    • nicht-normal: Führt oft zu nicht-parametrischen, Simulations- oder exakten Tests.
  • Wie groß sind die zu erhebenden Stichproben?
    • < 30: Oft ein Risiko für die Normalitätsannahme.
    • ≥ 30: Unterstützt oft die Normalitätsannahme.

Signifikanztest (erneut)

  • Ihr Ergebnisteil sollte üblicherweise enthalten:
    • den beobachteten Effekt e
    • Signifikanzergebnisse aus (einem) Test(s)
    • Wie beide Aspekte zu Ihren Hypothesen stehen
  • Aber nochmals: Der p-Wert gibt an, wie wahrscheinlich das beobachtete Ergebnis unter der H0 ist – sonst nichts
Denken Sie daran, dass der Standard-p-Wert in den Geistes- und Sozialwissenschaften
0,05 beträgt.
[...] Was bedeutet diese statistische Signifikanz? Es bedeutet, dass
eine mindestens 95%ige Chance besteht, dass die Nullhypothese *falsch* ist.
  • Das ist völlig falsch:
    • Dieser Autor: p ist p(H0 = FALSE | Daten)
    • Tatsächlich: p ist p(Daten | H0 = TRUE)
  • Oft unterscheidet man ‘Signifikanzniveaus’:
    • p < 0,001 (hochsignifikant) vs. 0,01 > p ≥ 0,001 (sehr signifikant) vs. 0,05 > p ≥ 0,01 (signifikant)
    • 0,1 > p ≥ 0,05: marginal signifikant – unsinnig, nutzen Sie das nicht

Effektstärken

  • Wie erwähnt, sollten Ihre Ergebnisse auch Effektstärken enthalten
  • Effektstärken korrelieren mit p-Werten, aber nicht deterministisch: Oft gilt:
    • starke Effekte sind signifikant
    • schwache Effekte sind nicht signifikant
  • Aber:
    • Bei großen Stichproben können selbst sehr schwache Effekte signifikant sein
    • Bei großer Variabilität können selbst starke Effekte nicht signifikant sein
Lerner of-Gen s-Gen Summe
Chinesisch 20 15 35
Deutsch 15 20 35
Summe 35 35 70
   p-value odds ratio 
    0.2320     1.7778 
Lerner of-Gen s-Gen Summe
Chinesisch 200 150 350
Deutsch 150 200 350
Summe 350 350 700
   p-value odds ratio 
    0.0002     1.7778 
  • Sie müssen Signifikanz und Effektstärke im Kopf trennen:
    • Signifikanz: Wie wahrscheinlich ist der Effekt, wenn ‘in Wirklichkeit gar nichts da ist’?
    • Effektstärke: Wie groß/stark ist der Effekt, ungeachtet dessen, ob er zufällig ist?

Signifikanz durch Simulation annähern

Für 20 Nomen haben Sie gemessen …

  • Einen Prädiktor IMAGEABILITY: Ob man sich das Referenzobjekt des Nomens vorstellen/visualisieren kann (n: ‘nein’ vs. y: ‘ja’) und
  • eine Response RT: Ein Reaktionszeit-Score von 1 (am schnellsten) bis 20 (am langsamsten).
  • Sehen Sie sich diese fast perfekte Korrelation an:
Figure 3: Die Korrelation zwischen RT und IMAGEABILITY

Wie bestimmen wir, ob dieser Effekt e signifikant ist?

  • Der beobachtete Effekt e (n-y) ist 14 minus 7 = 7, aber H0 postuliert einen Effekt von 0
  • Wie wäre es, wenn wir relevante H0-Daten generieren und prüfen, wie der beobachtete Effekt e im Vergleich zu diesen H0-Daten abschneidet?
  • Relevante H0-Daten
    • haben die gleichen IMAGEABILITY-Häufigkeiten von n und y (jeweils 10) &
    • haben die gleichen RT-Werte, aber
    • sind zufällig und damit mit H0 vereinbar – wie?
  • Ganz einfach: Wir zerstören den Zusammenhang von RT ~ IMAGEABILITY (nlangsam / yschnell), indem wir die Werte des Prädiktors IMAGEABILITY zufällig neu anordnen (randomisieren)!

RT ~ IMAGEABILITY (randomisiert 1)

set.seed(1); d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))
Figure 4: Korrelation zwischen RT und randomisierter IMAGEABILITY 1

RT ~ IMAGEABILITY (randomisiert 2)

d_rand <- d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))
Figure 5: Korrelation zwischen RT und randomisierter IMAGEABILITY 2

RT ~ IMAGEABILITY (randomisiert 3)

d_rand <- d_rand <- data.frame(RT=d$RT, IMAGEABILITY=sample(d$IMAGEABILITY))
Figure 6: Korrelation zwischen RT und randomisierter IMAGEABILITY 3

Wir brauchen dies viel öfter …

  • Lassen Sie uns nicht 3, sondern 100.000 zufällige H0-Verteilungen generieren, d.h. 100.000 theoretisch moegliche Effekte e, …
Figure 7: Die ersten 10 von 100.000 Zufallsverteilungen
  • … was sich im Durchschnitt auf 0 einpendeln sollte

Aber wie werten wir das aus?

Figure 8: Histogramm der H0-Korrelationen zwischen RT und IMAGEABILITY
  • Wir können alle H0-Effekte e1-100.000 darstellen, z.B. in einem Histogramm
  • Wir können eine vertikale gepunktete Linie hinzufügen, die den tatsächlich beobachteten Effekt e von 7 darstellt
  • Wir können zählen, wie oft wir einen Wert von 7 oder höher in den H0-Daten erhalten und …
  • … das als Prozentsatz ausdrücken – das ist p
  • Hier ist p = 0.0034 – der beobachtete Unterschied von 7 zwischen Objekten und Subjekten ist signifikant (weicht signifikant von 0 ab)

Wie gut funktioniert das?

  • Zur Erinnerung: Der p-Wert aus der Simulation beträgt 0.0034.
  • Der ‘Goldstandard’-p-Wert aus einem exakten (!) t-Test für unabhängige Stichproben ist 0.00342, …
  • … was bedeutet, dass der Simulationsansatz ein nahezu perfektes Ergebnis erzielt
  • Was ist mit dem parametrischen t-Test (nach Welch)?
    • Sein p-Wert ist 0.00232, was ebenfalls sehr nah dran ist (aber schlechter als die Simulation!)
  • Was ist mit dem parametrischen t-Test (nach Student)?
    • Sein p-Wert ist 0.00227, was ebenfalls nah dran ist (aber schlechter als die Simulation!)
  • Simulationsbasierte Ansätze sind sehr vielseitig und nützlich – sie können oft helfen, wenn kaum etwas anderes funktioniert!